Googles „Weltmodell“-Wette: Aufbau der KI-Betriebsebene, bevor Microsoft die Benutzeroberfläche übernimmt

Sprache auswählen

German

Down Icon

Land auswählen

America

Down Icon

Googles „Weltmodell“-Wette: Aufbau der KI-Betriebsebene, bevor Microsoft die Benutzeroberfläche übernimmt

Googles „Weltmodell“-Wette: Aufbau der KI-Betriebsebene, bevor Microsoft die Benutzeroberfläche übernimmt

Abonnieren Sie unsere täglichen und wöchentlichen Newsletter, um die neuesten Updates und exklusiven Inhalte zur branchenführenden KI-Berichterstattung zu erhalten. Mehr erfahren

Nach drei Stunden auf Googles I/O 2025-Event letzte Woche im Silicon Valley wurde es immer deutlicher: Google konzentriert seine beeindruckenden KI-Aktivitäten – prominent unter dem Namen Gemini gebrandet, umfasst aber ein breites Spektrum an zugrundeliegenden Modellarchitekturen und Forschungsarbeiten – mit Hochdruck. Das Unternehmen bringt eine Vielzahl von Innovationen und Technologien auf den Markt und integriert diese in atemberaubendem Tempo in Produkte.

Neben schlagzeilenträchtigen Funktionen hat Google ein noch ehrgeizigeres Ziel verfolgt: ein Betriebssystem für das KI-Zeitalter – kein Betriebssystem, das von der Festplatte bootet, sondern eine Logikebene, die jede App nutzen kann – ein „Weltmodell“, das einen universellen Assistenten antreiben soll, der unsere physische Umgebung versteht und in unserem Namen schlussfolgert und handelt. Es handelt sich um eine strategische Offensive, die vielen Beobachtern angesichts der vielen Funktionen möglicherweise entgangen ist.

Einerseits ist es eine riskante Strategie, etablierte Konkurrenten zu überholen. Andererseits stellt sich angesichts der Milliardeninvestitionen von Google in dieses Mondprojekt eine entscheidende Frage: Kann Googles Brillanz in KI-Forschung und -Technologie schneller in Produkte umgesetzt werden als die seiner Konkurrenten, deren Vorteil darin liegt, KI in sofort zugängliche und kommerziell potente Produkte zu verpacken? Kann Google Microsoft ausmanövrieren, die vertikalen Hardware-Träume von OpenAI abwehren und – entscheidend – sein eigenes Suchimperium angesichts der disruptiven Strömungen der KI am Leben erhalten?

Google strebt diese Zukunft bereits in schwindelerregendem Ausmaß an. Pichai sagte gegenüber I/O, dass das Unternehmen mittlerweile 480 Billionen Token pro Monat verarbeitet – 50-mal mehr als vor einem Jahr – und fast fünfmal mehr als die 100 Billionen Token pro Monat, die sein Unternehmen laut Satya Nadella von Microsoft verarbeitet. Diese Dynamik spiegelt sich auch in der Akzeptanz bei den Entwicklern wider: Laut Pichai entwickeln derzeit über 7 Millionen Entwickler mit der Gemini-API, was einer Verfünffachung seit der letzten I/O entspricht, während die Gemini-Nutzung auf Vertex AI um mehr als das 40-fache gestiegen ist. Und die Stückkosten sinken weiter, da die Gemini 2.5-Modelle und die Ironwood TPU mehr Leistung aus jedem Watt und jedem Dollar herausholen. AI Mode (wird in den USA eingeführt) und AI Overviews (die bereits 1,5 Milliarden Benutzer monatlich bedienen) sind die Live-Testumgebungen, in denen Google Latenz, Qualität und zukünftige Anzeigenformate optimiert, während es die Suche in eine KI-First-Ära führt.

Quelle: Google I/O 20025

Googles Fokus auf ein sogenanntes Weltmodell“ – eine KI, die mit einem tiefen Verständnis der Dynamiken der realen Welt ausgestattet werden soll – und die damit verbundene Vision eines universellen Assistenten – eines von Google und nicht von anderen Unternehmen betriebenen – führt zu einer weiteren großen Spannung: Wie viel Kontrolle will Google über diesen allwissenden Assistenten, der auf seinem Kronjuwel, der Suche, aufbaut? Will das Unternehmen ihn in erster Linie für sich selbst nutzen, um sein 200 Milliarden Dollar schweres Suchgeschäft zu retten, das davon abhängt, den Ausgangspunkt zu besitzen und Störungen durch OpenAI zu vermeiden? Oder wird Google seine grundlegende KI vollständig für andere Entwickler und Unternehmen öffnen – ein weiteres Segment, das einen erheblichen Teil seines Geschäfts ausmacht und über 20 Millionen Entwickler beschäftigt, mehr als jedes andere Unternehmen ?

Manchmal hat das Unternehmen es versäumt, sich mit der gleichen Deutlichkeit wie sein Erzfeind Microsoft radikal auf die Entwicklung dieser Kernprodukte für andere zu konzentrieren. Das liegt daran, dass viele Kernfunktionen für die eigene geschätzte Suchmaschine reserviert sind. Dennoch unternimmt Google erhebliche Anstrengungen, Entwicklern wo immer möglich Zugriff zu gewähren. Ein vielsagendes Beispiel ist das Projekt Mariner . Google hätte die agentenbasierten Browser-Automatisierungsfunktionen direkt in Chrome einbetten können, um den Verbrauchern eine sofortige Vorführung unter Googles voller Kontrolle zu bieten. Google fügte jedoch hinzu, dass die Computernutzungsfunktionen von Mariner „diesen Sommer“ über die Gemini-API einer breiteren Öffentlichkeit zugänglich gemacht würden. Das signalisiert, dass jeder Konkurrent, der eine vergleichbare Automatisierung anstrebt, mit externem Zugriff rechnen kann. Tatsächlich sagte Google, die Partner Automation Anywhere und UiPath würden bereits damit arbeiten.

Am deutlichsten formulierte Demis Hassabis, CEO von Google DeepMind, Googles großen Plan während der I/O-Keynote. Er erklärte, Google verstärke seine Bemühungen im Bereich der künstlichen allgemeinen Intelligenz (AGI) weiter. Gemini sei bereits „das beste multimodale Modell“, erklärte Hassabis, Google arbeite jedoch intensiv daran, es zu einem sogenannten Weltmodell auszubauen. Ein Modell, das Pläne schmieden und sich neue Erfahrungen vorstellen kann, indem es Aspekte der Welt simuliert, genau wie das Gehirn.

Bei diesem von Hassabis formulierten Konzept eines „Weltmodells“ geht es darum, eine KI zu entwickeln, die die grundlegenden Prinzipien der Funktionsweise der Welt erlernt – indem sie Ursache und Wirkung simuliert, intuitive Physik versteht und letztendlich durch Beobachtung lernt, ganz wie ein Mensch. Ein früher, vielleicht leicht übersehener, aber dennoch bedeutender Indikator für diese Richtung ist die Arbeit von Google DeepMind an Modellen wie Genie 2. Diese Forschung zeigt, wie sich interaktive, zweidimensionale Spielumgebungen und spielbare Welten aus verschiedenen Eingaben wie Bildern oder Text generieren lassen. Sie bietet einen Einblick in eine KI, die dynamische Systeme simulieren und verstehen kann.

Hassabis hat dieses Konzept eines „Weltmodells“ und dessen Ausprägung als „universeller KI-Assistent“ seit Ende 2024 in mehreren Vorträgen entwickelt und es am umfassendsten auf der I/O präsentiert – CEO Sundar Pichai und Gemini-Leiter Josh Woodward sprachen auf derselben Bühne über die Vision. (Während andere KI-Führungskräfte, darunter Satya Nadella von Microsoft, Sam Altman von OpenAI und Elon Musk von xAI, bereits über „Weltmodelle“ diskutiert haben, verknüpft Google dieses grundlegende Konzept auf einzigartige und umfassende Weise mit seiner kurzfristigen strategischen Stoßrichtung: dem „universellen KI-Assistenten“.)

Über die Gemini-App, Googles Äquivalent zu ChatGPT von OpenAI, erklärte Hassabis: „Unsere ultimative Vision für die Gemini-App besteht darin, sie in einen universellen KI-Assistenten zu verwandeln, eine KI, die persönlich, proaktiv und leistungsstark ist und einen unserer wichtigsten Meilensteine ​​auf dem Weg zur AGI darstellt.“

Diese Vision wurde durch I/O-Demonstrationen greifbar gemacht. Google stellte eine neue App namens Flow vor – eine Drag-and-Drop-Filmleinwand, die Charakter- und Kamerakonsistenz bewahrt. Sie nutzt Veo 3, das neue Modell, das physikbasiertes Video und nativen Ton überlagert. Für Hassabis ist diese Kombination ein erster Beweis dafür, dass „das Verständnis von Weltmodellen bereits in kreative Werkzeuge einfließt“. Im Bereich der Robotik hob er das optimierte Gemini Robotics-Modell hervor und argumentierte, dass „KI-Systeme Weltmodelle benötigen, um effektiv zu funktionieren“.

CEO Sundar Pichai bekräftigte dies mit dem Verweis auf das Projekt Astra , das „die zukünftigen Fähigkeiten eines universellen KI-Assistenten erforscht, der die Welt um Sie herum verstehen kann“. Diese Astra-Funktionen, wie das Verstehen von Live-Videos und die Bildschirmfreigabe, sind jetzt in Gemini Live integriert. Josh Woodward, der Google Labs und die Gemini App leitet, erläuterte das Ziel der App, der „persönlichste, proaktivste und leistungsstärkste KI-Assistent“ zu sein. Er zeigte auf, wie „persönlicher Kontext“ (Verknüpfung des Suchverlaufs und bald auch von Gmail/Kalender) es Gemini ermöglicht, Bedürfnisse zu antizipieren, etwa durch personalisierte Prüfungsquizze oder benutzerdefinierte Erklärvideos mit Analogien, die ein Benutzer versteht (z. B. Thermodynamik am Beispiel des Radfahrens). Dies, betonte Woodward, „ist unsere Richtung mit Gemini“, ermöglicht durch das Modell Gemini 2.5 Pro, das es Benutzern erlaubt, „Dinge ins Leben zu denken“.

Die auf der I/O vorgestellten neuen Entwicklertools sind Bausteine. Gemini 2.5 Pro mit „Deep Think“ und das hocheffiziente 2.5 Flash (jetzt mit nativem Audio und URL-Kontext-Erdung durch die Gemini API ) bilden den Kern der Intelligenz. Google hat außerdem in aller Stille eine Vorschau auf Gemini Diffusion gezeigt und damit signalisiert, dass es bereit ist, über reine Transformer-Stacks hinauszugehen, wenn dies zu besserer Effizienz oder Latenz führt. Google packt diese Funktionen in ein umfangreiches Toolkit: AI Studio und Firebase Studio sind zentrale Ausgangspunkte für Entwickler, während Vertex AI der Einstieg für Unternehmen bleibt.

Dieses gewaltige Vorhaben wird von Googles enormen Forschungs- und Entwicklungskapazitäten, aber auch von strategischer Notwendigkeit vorangetrieben. Microsoft habe im Bereich der Unternehmenssoftware eine beeindruckende Position, erklärte ein Chief AI Officer eines Fortune-500-Unternehmens gegenüber VentureBeat und beruhigte Kunden mit seinem vollen Engagement für die Entwicklung von Copilot . Der Manager bat um Anonymität, da die Aussage zum intensiven Wettbewerb zwischen den KI-Cloud-Anbietern heikel sei. Microsofts Dominanz bei den Office-365-Produktivitätsanwendungen werde durch direkten Feature-für-Feature-Wettbewerb nur schwer zu brechen sein, so der Manager.

Googles Weg zur potenziellen Marktführerschaft – sein „Endspurt“ um Microsofts Konzernmacht – liegt darin, die Spielregeln mit einem grundlegend überlegenen, KI-nativen Interaktionsparadigma neu zu definieren. Wenn Google einen wirklich „universellen KI-Assistenten“ liefert, der auf einem umfassenden Weltmodell basiert, könnte dieser zur neuen unverzichtbaren Schicht – dem effektiven Betriebssystem – für die Interaktion von Nutzern und Unternehmen mit Technologie werden. Wie Pichai kurz vor der I/O mit Podcaster David Friedberg sinnierte, bedeutet das die Wahrnehmung der physischen Umgebung. Und so sagte Pichai: „ Vielleicht ist das der nächste Schritt … das ist es, was mich begeistert .“

Doch diese KI-Offensive ist ein Wettlauf gegen mehrere Uhren. Erstens muss die 200 Milliarden Dollar teure Suchmaschinen-Anzeigen-Engine, die Google finanziert, auch bei ihrer Neugestaltung geschützt werden. Das Monopolisierungsurteil des US-Justizministeriums belastet Google weiterhin – die Veräußerung von Chrome wird als beste Lösung ins Spiel gebracht. Und in Europa könnten der Digital Markets Act sowie aufkommende Klagen wegen Urheberrechtsverletzungen die Freiheit von Gemini beim Durchsuchen und Anzeigen des offenen Webs einschränken.

Und schließlich zählt auch die Ausführungsgeschwindigkeit. Google wurde in den vergangenen Jahren für seine langsamen Fortschritte kritisiert. Doch in den vergangenen 12 Monaten wurde deutlich, dass Google an mehreren Fronten geduldig gearbeitet hat und sich dies durch schnelleres Wachstum als die Konkurrenz ausgezahlt hat. Die Herausforderung, diesen Übergang zu KI in großem Maßstab erfolgreich zu meistern, ist enorm. Dies zeigt auch der jüngste Bloomberg-Bericht, in dem detailliert beschrieben wird, wie selbst ein Tech-Gigant wie Apple bei seinen KI-Initiativen mit erheblichen Rückschlägen und internen Umstrukturierungen zu kämpfen hat. Diese branchenweite Schwierigkeit unterstreicht, wie viel für alle Spieler auf dem Spiel steht. Zwar fehlt es Pichai an der Effekthascherei einiger Konkurrenten, doch die lange Liste von Erfahrungsberichten von Unternehmenskunden – zu tatsächlichen KI-Bereitstellungen, die Google letzten Monat bei seinem Cloud Next-Event vorführte – unterstreicht einen Marktführer, der eine kontinuierliche Produktkadenz und Unternehmenserfolge für sich sprechen lässt.

Gleichzeitig drängen fokussierte Wettbewerber auf den Markt. Microsofts Vormarsch in der Unternehmenswelt setzt sich fort. Auf der Build-Konferenz wurden Microsoft 365 Copilot als „UI für KI“, Azure AI Foundry als „Produktionslinie für Intelligenz“ und Copilot Studio für die Entwicklung anspruchsvoller Agenten präsentiert, mit beeindruckenden Demos von Low-Code-Workflows ( Microsoft Build Keynote, Miti Joshi um 22:52 Uhr, Kadesha Kerr um 51:26 Uhr ). Nadellas Vision eines „Open Agentic Web“ ( NLWeb, MCP ) bietet Unternehmen einen pragmatischen Weg zur KI-Einführung und ermöglicht die selektive Integration von KI-Technologie – sei es von Google oder einem anderen Wettbewerber – in ein Microsoft-zentriertes Framework.

OpenAI hat unterdessen mit seinem Produkt ChatGPT eine deutlich größere Reichweite bei den Verbrauchern und berichtet kürzlich von 600 Millionen monatlichen und 800 Millionen wöchentlichen Nutzern. Zum Vergleich: Die Gemini-App hat 400 Millionen monatliche Nutzer. Im Dezember hat OpenAI zudem ein vollwertiges Suchangebot auf den Markt gebracht und plant Berichten zufolge auch ein Anzeigenangebot – was eine existenzielle Bedrohung für das Suchmodell von Google darstellen könnte. Neben der Entwicklung führender Modelle unternimmt OpenAI mit der gemeldeten 6,5 Milliarden Dollar teuren Übernahme von Jony Ives IO einen provokativen vertikalen Schachzug. Das Unternehmen verspricht, „über diese veralteten Produkte hinauszugehen“ und deutet an, dass es ein Hardwareprodukt auf den Markt bringen wird, das KI auf ähnliche Weise revolutionieren soll, wie das iPhone den Mobilfunk revolutioniert hat. Während all dies möglicherweise Googles Ambitionen im Bereich der Personalcomputer der nächsten Generation gefährden könnte, ist es auch wahr, dass die Fähigkeit von OpenAI, einen tiefen Burggraben zu errichten, wie es Apple mit dem iPhone getan hat, in einer KI-Ära, die zunehmend durch offene Protokolle (wie MCP) und einfachere Modellaustauschbarkeit geprägt ist, möglicherweise begrenzt ist.

Google steuert intern sein riesiges Ökosystem. Wie Jeanine Banks, Googles Vizepräsidentin für Developer X, gegenüber VentureBeat erklärte, bedeutet die Betreuung der vielfältigen globalen Entwickler-Community von Google, dass es „keine Einheitslösung gibt“, was zu einer umfangreichen, aber manchmal komplexen Palette an Tools führt – AI Studio, Vertex AI, Firebase Studio und zahlreiche APIs.

Inzwischen übt Amazon Druck von einer anderen Seite aus: Bedrock hostet bereits Modelle von Anthropic, Meta, Mistral und Cohere und bietet AWS-Kunden damit einen pragmatischen Standard mit mehreren Modellen.

Googles kühnes Bestreben, die grundlegende Intelligenz für das KI-Zeitalter zu entwickeln, bietet Unternehmensleitern attraktive Chancen und wichtige Überlegungen:

  1. Jetzt umstellen oder später nachrüsten: Wenn Sie einen Release-Zyklus in Verzug geraten, kann dies zu kostspieligen Neuschreibungen führen, wenn Assistent-First-Schnittstellen zum Standard werden.
  2. Schöpfen Sie revolutionäres Potenzial: Für Unternehmen, die die leistungsstärkste KI einsetzen möchten, bietet die Nutzung der „Weltmodell“-Forschung von Google, multimodaler Fähigkeiten (wie Veo 3 und Imagen 4, die von Woodward auf der I/O vorgestellt wurden) und der von Google versprochenen AGI-Entwicklung einen Weg zu potenziell bedeutenden Innovationen.
  3. Bereiten Sie sich auf ein neues Interaktionsparadigma vor: Der Erfolg von Googles „Universalassistent“ würde eine grundlegende neue Schnittstelle für Dienste und Daten bedeuten. Unternehmen sollten Strategien für die Integration über APIs und agentenbasierte Frameworks für eine kontextsensitive Bereitstellung entwickeln.
  4. Berücksichtigen Sie das langfristige Ziel (und dessen Risiken): Die Ausrichtung auf die Vision von Google ist eine langfristige Verpflichtung. Das vollständige „Weltmodell“ und AGI sind möglicherweise noch ferne Horizonte. Entscheidungsträger müssen dies mit den unmittelbaren Bedürfnissen und der Komplexität der Plattform abwägen.
  5. Vergleich mit fokussierten Alternativen: Pragmatische Lösungen von Microsoft bieten jetzt spürbare Produktivität im Unternehmen. Disruptive Hardware-KI von OpenAI/IO bietet einen anderen, eigenständigen Weg. Eine diversifizierte Strategie, die das Beste aus beiden Bereichen nutzt, ist oft sinnvoll, insbesondere angesichts des zunehmend offenen agentenbasierten Webs, das diese Flexibilität ermöglicht.

Diese komplexen Entscheidungen und praxisnahen Strategien zur KI-Einführung stehen im Mittelpunkt der Diskussionen auf VentureBeats Transform 2025 im nächsten Monat. Die führende unabhängige Veranstaltung bringt technische Entscheidungsträger von Unternehmen mit Führungskräften von Pionierunternehmen zusammen, um Erfahrungen aus erster Hand zur Plattformauswahl – von Google, Microsoft und anderen – und zur KI-Implementierung auszutauschen. Kuratiert wird die Veranstaltung von der VentureBeat-Redaktion. Da die Anzahl der Plätze begrenzt ist, wird eine frühzeitige Anmeldung empfohlen.

Googles I/O-Spektakel war ein starkes Statement: Google signalisierte, dass es die grundlegende Intelligenz der KI-gesteuerten Zukunft entwickeln und betreiben will. Sein Streben nach einem „Weltmodell“ und seine AGI-Ambitionen zielen darauf ab, die Computertechnik neu zu definieren, die Konkurrenz auszustechen und seine Dominanz zu sichern. Der Mut ist überzeugend, das technologische Potenzial immens.

Die große Frage ist die Umsetzung und das Timing. Kann Google Innovationen vorantreiben und seine umfangreichen Technologien schneller zu einem stimmigen, überzeugenden Erlebnis integrieren, als die Konkurrenz ihre Position festigt? Gelingt dies dem Unternehmen, während es gleichzeitig die Suche transformiert und regulatorische Herausforderungen bewältigt? Und gelingt es dem Unternehmen, sich so umfassend auf Verbraucher und Unternehmen zu konzentrieren – eine Agenda, die wohl deutlich umfassender ist als die seiner wichtigsten Konkurrenten?

Die nächsten Jahre werden entscheidend sein. Wenn Google seine Vision eines „Weltmodells“ umsetzt, könnte es ein Zeitalter personalisierter, allumfassender Intelligenz einläuten und damit zur neuen operativen Ebene unseres digitalen Lebens werden. Andernfalls könnte sein ehrgeiziges Ziel zur Warnung eines Riesen werden, der nach allem strebt, nur um dann festzustellen, dass die Zukunft von anderen bestimmt wird, die präzisere und schnellere Ziele verfolgen.

Tägliche Einblicke in Geschäftsanwendungsfälle mit VB Daily

Wenn Sie Ihren Chef beeindrucken möchten, ist VB Daily genau das Richtige für Sie. Wir geben Ihnen Insiderinformationen darüber, was Unternehmen mit generativer KI tun – von regulatorischen Veränderungen bis hin zu praktischen Implementierungen. So können Sie Ihre Erkenntnisse teilen und so den ROI maximieren.

Lesen Sie unsere Datenschutzrichtlinie

Vielen Dank für Ihr Abonnement. Weitere VB-Newsletter finden Sie hier .

Ein Fehler ist aufgetreten.

venturebeat

venturebeat

Ähnliche Nachrichten

Alle News
Animated ArrowAnimated ArrowAnimated Arrow